Lavoro di Bessone Isabella (matr. 834623), Gregori Lorenzo (matr. 794981), Pellegata Alessandra (matr. 778609)
Shiny app : https://alessandrapellegata.shinyapps.io/meteoriti/
Github repository: https://github.com/alessandra-pellegata/SL_Project/
A.A. 2018/2019
Progetto di Statistical Learning
Università degli Studi di Milano - Bicocca
Secondo alcune teorie scientifiche, le molecole organiche che hanno determinato l’esistenza sulla Terra, furono trasportate sulla superficie terrestre da meteoriti. Analizzarli rappresenta quindi l’opportunità di aggiungere informazioni su come la vita si sia formata sul nostro Pianeta e altrove, oltre alla possibilità di studiare la composizione mineralogica di un altro corpo celeste senza bisogno di costose spedizioni spaziali. Carl Agee, ricercatore dell’Università del New Messico, recuperò nel 2016 una roccia apparentemente di origini terrestre trovata da un nomade in una duna di sabbia in Mauritania. Dopo approfondite analisi lo studioso scoprì trattarsi di un frammento precipitato sul nostro Pianeta appartenente ad un astro andato distrutto nel corso del tempo risalente a oltre 4.5 miliardi di anni fa. Questo progetto intende approfondire l’argomento dei meteoriti, analizzandone il luogo del ritrovamento, la composizione chimica e le proprietà fisiche. Grazie alle moderne tecnologie si è a conoscenza della quasi totalità degli asteroidi di grandi dimensioni che potenzialmente potrebbero entrare nella nostra atmosfera. Per ricostruire la provenienza di questi corpi e valutarne la pericolosità, è necessario raccoglierne i frammenti, i meteoriti appunto. Ecco perché il loro ritrovamento è un evento così eccezionale e cruciale per le scienze planetarie. Il lavoro è accompagnato da un’applicazione realizzata con Shiny che permette di visualizzare i dati su mappe e raccogliere i risultati della ricerca in modo interattivo.
Il dataset utilizzato è disponibile online sulla piattaforma Kaggle ed è stato fornito dalla NASA, maggiore esponente del rapporto tra Terra e Universo. I dati sono stati raccolti dalla Meteoritical Society, organizzazione internazionale dedicata alla promozione della ricerca e dell’educazione nelle scienze planetarie, con particolare attenzione agli studi di meteoriti e altri materiali extraterrestri che favoriscono la comprensione dell’origine del sistema solare. Il dataset include il luogo e l’anno del ritrovamento del meteorite e la massa per oltre 45 mila frammenti che si sono scontrati con il nostro Pianeta. In particolare, le variabili a disposizione che spiegano il fenomeno sono:
Il dataset analizzato presentava molti valori mancanti. Si è deciso di non procedere con la loro sostituzione tramite previsioni, non avendo a disposizione dati adeguati. Inoltre come suggerito dalla letteratura, non è possibile prevedere correttamente la massa o la tipologia del meteorite sulla base delle poche informazioni disponibili. Trattandosi infatti di un frammento risulta complicato stabilire le sue caratteristiche chimico-fisiche dopo l’impatto con l’atmosfera. Per questo motivo sono state considerate solamente le osservazioni complete, ovvero caratterizzate dalla presenza di tutte le informazioni sulle variabili.
A questo punto è stato possibile esplorare le variabili. Durante questa operazione si è deciso di ridurre il dataset ai soli meteoriti ritrovati nell’arco temporale dal 1900 in poi. Alla base di questa decisione vi è il fatto che la variabile year presenta dei valori non validi (ad esempio 860, 601 ..). In secondo luogo le osservazioni riferite agli anni precedenti al 1900 presentano molti outlier e missing value dovuti alle strumentazioni meno avanzate disponibili ai tempi.
Concentrandosi poi sulla variabile mass sono stati rilevate molte osservazioni con massa pari a zero. Osservazioni con un valore nullo della variabile non risultano essere rilevanti, motivo per il quale sono state sottratte dall’analisi.
Anche per le variabili riferite alle coordinate geografiche sono stati rilevati degli outlier. Molte osservazioni risultavano collocate nel punto (0,0), riferito ad un punto nell’Oceano Atlantico.
datatot = data.frame(
lat = data2$reclat,
lng = data2$reclong,
name = data2$name,
mass = data2$mass,
fall = data2$fall,
year = data2$year,
recclass = data2$recclass
)
leaflet(data=datatot) %>%
addTiles() %>%
addMarkers(lat = 0, lng =0 ,
labelOptions = labelOptions(noHide=F, direction='auto', textsize="11px")) %>% addProviderTiles(providers$CartoDB.Positron) %>% setView(0,0,zoom = 3)
Questo valore rappresenta il meccanismo di sostituzione dei valori mancanti utilizzati dall’utente che ha creato il dataset. Qualora non si fosse stati in grado di risalire al luogo di ritrovamento del meteorite, la variabile è stata completata con il valore (0,0). Si è deciso di non considerare queste osservazioni.
Studiando attentamente il dataset si è verificata la presenza di dati ridondanti. In alcuni casi migliaia di frammenti dello stesso meteorite erano localizzati nella stessa coordinata geografica. Ciò rendeva complicata la rappresentazione del fenomeno sulla mappa e distorceva l’informazione. Nel dataset infatti migliaia di righe ripetevano il dato per lo stesso meteorite (ad esempio, il caso del meteorie Queen Alexandra Range caduto in Antartide). In questi casi si è deciso di rimuovere le informazioni ridondanti mantenendo una solo riga per meteorite e creando una nuova variabile che indicasse il numero di frammenti ad esso associato.
Al termine dell’operazione di preprocessing il dataset risultante raccoglie dati su 16.091 meteoriti caduti sul nostro Pianeta tra il 1900 e il 2012. Il codice completo contenente le operazioni di preprocessing del dataset è disponibile nel github repository.
L’obiettivo di questo lavoro consiste nel voler caratterizzare il fenomeno della caduta dei meteoriti. Come primo approccio si è deciso di focalizzare l’attenzione sulla variabile year del dataset, in modo da considerare la distribuzione negli anni delle osservazioni disponibili. Il grafico seguente raccoglie la frequenza di eventi meteoritici registrati per gli anni considerati, dal 1900 al 2012.
dt5<-data.frame(table(data5$year))
colnames(dt5)<-c("Year","Frequency")
f<-ggplot(data=dt5, aes(x=Year, y=Frequency)) +
geom_bar(stat="identity",fill="steelblue")+
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplotly(f)
Come è possibile notare, negli ultimi 25 anni circa le rilevazioni dei meteoriti sono aumentate notevolmente, passando da una media di 28 meteoriti ritrovati all’anno nel periodo antecedente il 1985, ad una media di 506 tra il 1985 e il 2012.
L’analisi si è poi sviluppata concentrandosi sulla tipologia di avvistamento del meteorite. A tal fine è possibile fare riferimento alla variabile fall che può assumere valore Fell se il corpo celeste è stato visto scontrarsi con l’atmosfera terrestre e precipitare, oppure Found nel caso di un frammento rinvenuto sul suolo in seguito a ricerche. Lo scopo alla base di questo approccio risiede nel voler identificare un andamento crescente anche nella frequenza di meteoriti visti collidere con la Terra. L’ipotesi risiede nell’idea secondo cui, con l’avanzare negli anni, i ricercatori hanno avuto a disposizione strumenti sempre più precisi e potenti per l’osservazione della volta celeste. Contrariamente a quanto si pensava, la numerosità di meteoriti della tipologia Fell si è mantenuta costante durante i 113 anni considerati. I meteoriti ritrovati sul suolo, i Found, sono invece i veri responsabili dell’importante aumento di rilevazioni presenti nel dataset. Il fenomeno può essere quindi collegato alla recente volontà dei ricercatori di studiare e approfondire tutto ciò che concerne l’Universo.
I risultati relativi all’analisi temporale descritta sono reperibili nell’applicazione Shiny consultando la scheda Scegli l’anno. Tale prospetto permette di selezione l’arco temporale di interesse e visualizzare sulla mappa i meteoriti relativi, accompagnati da statistiche di approfondimento: frequenza totale e suddivisione in Found e Fell.
L’analisi si è poi incentrata sulle proprietà fisiche del meteorite e in particolare sulla massa, facendo riferimento alla variabile mass del dataset. Nel boxplot sottostante è possibile notare come la distribuzione della massa non sia omogenea. La maggior parte delle osservazioni infatti fanno riferimento a frammenti di meteoriti di dimensioni esigue.
boxplot(data5$mass, main="Distribuzione della massa", xlab="Boxplot")
Dal momento che i meteoriti con massa maggiore ricoprono maggiore interesse sia dal punto di vista dei danni da loro creati sia dal punto di vista della composizione chimica, si è deciso di raggruppare le osservazioni in classi discriminando per la loro massa. Le sei fasce considerate sono:
Nel grafico sottostante è possibile avere una panoramica sulla numerosità di meteoriti in ogni classe.
dt6<-data.frame(table(data5$numMass))
colnames(dt6)<-c("Mass","Frequency")
levels(dt6$Mass)<-c("Meno di 1 kg","Tra 1 e 5 kg","Tra 5 e 10 kg","Tra 10 e 20 kg","Tra 20 e 100 kg","Più di 100 kg")
ggplot(data=dt6, aes(x=Mass, y=Frequency)) +
geom_bar(stat="identity",fill="steelblue") +
geom_text(aes(label=Frequency), vjust=-0.3, size=4)+
theme(axis.text.x = element_text(size=13))
L’obiettivo è analizzare le due classi più importanti: quella riferita ai frammenti di dimensioni minore di 1 kg, e quella riferita ai meteoriti con massa maggiore di 100 kg.
Grazie alla rappresentazione tramite mappa è risultato evidente come i meteoriti di massa inferiore a 1 kg siano spesso concentrati in aree specifiche. Si tratta in realtà di frammenti di uno stesso meteorite che con l’impatto sulla Terra si è frantumato in piccoli pezzi, rinvenuti poi in corrispondenza del luogo della collisione e in zone limitrofe.
Per quanto riguarda l’analisi dei meteoriti con massa superiore ai 100 kg viene presentata nella Shiny app una sezione di approfondimento e curiosità circa i cinque meteoriti più grandi mai caduti sul nostro Pianeta (scheda Top 5). Tra questi meteoriti, quattro sono della tipologia Found e si suppone siano caduti sul nostro Pianeta migliaia di anni fa, mentre uno solo, detto Sikhote-Alin, venne osservato cadere dagli astronomi nel 1947. L’evento risulta essere una delle più grandi piogge meteoritiche della storia recente. L’area dell’impatto di questo meteorite si estende per circa 1.3 km² e alcuni dei frammenti di maggiori dimensioni hanno creato dei crateri, il più largo dei quali ha un diametro di 26 metri ed è profondo circa 6.
Nell’applicazione Shiny, alla sezione Scegli la massa è possibile selezionare la tipologia di meteoriti che si vuole vengano rappresentati sulla mappa. È possibile distinguere se si tratta corpi celesti avvistati (Fell) oppure ritrovati sul suolo terrestre (Found) grazie alla diversa colorazione del punto sulla mappa. La dimensione del punto rappresentato dipende dalla massa del meteorite: maggiore è la massa e più grande sarà il punto.
I meteoriti citati nella sezione Top 5 presentano una caratteristica comune: appartengono tutti alla categoria dei Sideriti. Si tratta di corpi celesti composti per il 48% di ferro, proprietà che garantisce una maggiore resistenza e quindi giustifica le dimensioni notevoli dei meteoriti in seguito all’impatto con il Pianeta. Difficilmente un meteorite ferroso viene frammentato durante l’ingresso in atmosfera, motivo per il quale i corpi che raggiungono il suolo possono essere grandi anche decine di tonnellate. Inoltre le Sideriti resistono meglio di altre meteoriti agli agenti atmosferici, preservandosi più a lungo nel tempo. Questi risultati hanno portato a voler analizzare con maggiore dettaglio le composizioni chimiche dei meteoriti, procedendo con un’analisi delle caratteristiche elementali.
La composizione elementale dei meteoriti rappresenta un’importante area di ricerca nell’ambito dei corpi celesti. In questa fase dell’analisi si è voluto indagare la presenza di differenze nella composizione chimica dei diversi meteoriti ritrovati sul suolo terrestre.
La variabile reclass raccoglie informazioni circa le tipologie di meteoriti presenti nel dataset. Tuttavia i livelli della variabile erano 466, numero troppo elevato per poterne fare un confronto efficace.
length(levels(data5$recclass))
## [1] 466
Avendo alcune di queste classi composizione chimica molto simile si è deciso di raggrupparli in 12 macroclassi, evidenziate da caselle colorate nel grafico sottostante. Una prima classificazione dei meteoriti, basata sulla sola composizione mineralogica, si articola in tre vasti gruppi: Aeroliti, Sideriti e Sideroliti. Nella categoria Stone uncl, roccia non classificata, sono presenti quei meteoriti che non è stato possibile far risalire ad alcuna categoria.
Più del 90% delle meteoriti appartiene alla classe degli Aeroliti, motivo per il quale si è deciso di considerare anche le sue sotto-categorie: Condriti e Acondriti. All’interno di ciascuno di questi gruppi sono possibili ulteriori distinzioni basate principalmente sulla struttura e sulla diversa composizione chimica dei minerali presenti.
Successivamente, con lo scopo di individuare le differenze nella formulazione chimica dei meteoriti, è stato creato un dataset ausiliario contenente la distribuzione degli elementi nelle quattro famiglie di meteoriti, Condriti, Acondriti, Sideriti e Sideroliti, e nelle rocce terrestri. Il file è stato strutturato in modo da presentare per ogni classe di meteorite le composizioni in percentuali degli elementi chimici che ne caratterizzano la struttura. La composizione delle rocce terrestri è stata inserita per poter effettuare un confronto con le caratteristiche delle altre categorie; una struttura simile a quella delle rocce appartenenti alla Terra potrebbe infatti indicare l’esistenza di un pianeta con caratteristiche simili e, quindi, portare ad un’indagine riguardo l’esistenza di altre forme di vita.
Passando nello specifico della Shiny App è stata creata una pagina completamente interattiva chiamata Scegli la categoria, divisa in quattro quadranti. Nel primo, in alto a sinistra, è possibile selezionare la classe di meteoriti di interesse tramite un menù a tendina, sotto il quale comparirà una breve relazione delle caratteristiche dei meteoriti selezionati. Per poter fare in modo che tale descrizione variasse selezionando la categoria, è stato creato un ulteriore dataset ausiliario, contenente due colonne, una con il nome del tipo di corpo celeste, l’altra con la spiegazione relativa. Nel secondo quadrante è presente una mappa sulla quale vengono rappresentati i punti relativi alle osservazioni appartenenti alla specifica categoria. Nella parte inferiore della pagina, due grafici a torta evidenziano similarità e differenze tra le rocce terrestri e le osservazioni selezionate, mentre nell’ultimo quadrante un istogramma rappresenta la frequenza delle scoperte di meteoriti di quel tipo negli anni.
Sono stati individuati alcuni possibili spunti per implementare il lavoro. Purtroppo non sono state possibili analisi previsive non avendo a disposizione dati adeguati. Secondo il direttore del Minor Planet Center di Cambridge (Massachussetts) le probabilità che un meteorite causi un impatto pericoloso sono molto basse. La costruzione di strumenti preallarme richiedono investimenti troppo elevati. Meteore il cui impatto può causare notevoli danni colpiscono il nostro Pianeta una o due volte ogni secolo, e la maggior parte di esse cade sull’Oceano o su zone disabitate. Sarebbe interessante verificare se esiste una correlazione tra il luogo dell’impatto del meteorite e le caratteristiche fisiche dell’oggetto.
Collegato a questo aspetto è possibile implementare un indice di sicurezza per area, stato o continente. L’indice di Moran è utilizzato nell’analisi di fenomeni in cui lo spazio rappresenta una componente fondamentale e si tratta di una misura dell’autocorrelazione spaziale. In generale esiste autocorrelazione spaziale positiva se l’intensità del fenomeno in una zona è paragonabile all’intensità in zone contigue.